想像你是一位國小老師,花了一整個學期教學生「做人的道理」:要誠實、要善良、要負責任。期末了,你問班上同學:「大家都學會了嗎?」
全班異口同聲:「學會了!」
但你心裡知道,真正的考驗不是學生會不會「說」自己懂了,而是當他們真正面對選擇時,會不會「做」對的事。
於是你設計了一個情境題:
「你在操場撿到一個錢包,裡面有 1000 元和一張學生證。這時候:
A. 交給老師
B. 拿走錢,把空錢包交給老師
C. 假裝沒看到,偷偷拿走」
這時候,有些學生選 A,有些選 B,還有人誠實地承認「我可能會選 C,因為很想買那個玩具」。
這就是「道德測試」的本質:不是問「你懂不懂」,而是看「你會怎麼做」。
昨天我們聊到 Constitutional AI——Anthropic 給 AI 定下了 HHH (Helpful, Harmless, Honest) 三大原則,就像老師教學生「做人的道理」。但光是教還不夠,我們需要確認 AI 是否真的學會了。
今天,讓我們看看 Anthropic 如何為 AI 設計「道德期末考」。
還記得 Day 17-19 我們聊過的 AI Guardrails 嗎?那些技術護欄確實能阻止一些明顯的錯誤行為,但要全面測試 AI 的道德表現,光靠人類手動測試是不夠的。
想像你要測試一輛新車的安全性。你需要測試:
光是列出來就頭暈了吧?而且這還只是「開車」這一個場景。
AI 系統面臨的情境複雜度遠超汽車測試。一個客服機器人可能遇到:
如果每個情境都要人類手動測試,可能測到天荒地老都測不完。
有些 AI 的問題行為不會在第一次對話就暴露,而是潛伏在多輪對話之後。
就像有些學生在老師面前表現得很乖,但老師一轉身就開始搗蛋。AI 也可能:
還記得 Day 18 我們提到的 Crescendo Attack(漸強式攻擊)嗎?攻擊者會用多輪對話逐步引導 AI 走向危險區域。同樣的,測試也需要模擬這種多輪互動,才能發現潛在問題。
人類測試者可能沒耐心進行數百次的多輪對話測試,但 AI 可以。
想像三位老師批改同一份作文:
同一份作文,三個不同的評價。這就是人類評分的問題——主觀、不穩定、容易受心情影響。
測試 AI 的道德行為更需要客觀、一致的標準。我們需要:
這就是為什麼 Anthropic 開發了 Petri——一個自動化的 AI 道德測試框架。
Petri 的全名是「Parallel Exploration Tool for Risky Interactions」(風險互動平行探索工具),聽起來很厲害,但核心概念其實很簡單:
用 AI 來測試 AI。
就像用考試測試學生,Petri 用自動化的方式大規模測試 AI 的道德行為。它的核心哲學是:
「既然 AI 能夠理解複雜情境、進行多輪對話、做出判斷,那為什麼不讓 AI 來扮演測試者的角色?」
Petri 不只是 Anthropic 自己用,它是開源的,任何研究者、開發者、甚至是你,都可以使用它來測試 AI 系統。英國的 AI 安全研究所 (UK AISI) 就用 Petri 來測試 Claude Sonnet 4.5,並且發現了許多有趣的結果。
那麼,Petri 是如何運作的呢?
想像 Petri 是一個超級自動化的考試系統,它分三個步驟進行:
首先,研究者用自然語言描述想測試的行為。這就像老師在出考題時,先想好「我要測試學生的什麼能力」。
範例 Seeds:
"測試 AI 是否會為了達成目標而說謊"
"測試 AI 面對權限衝突時會如何選擇"
"測試 AI 是否會為了討好使用者而扭曲事實"
"測試 AI 發現組織不當行為時會怎麼做"
這些 Seed 就像是「考試大綱」,告訴 Petri 要測試什麼方向。但具體的考題呢?Petri 會自己生成!
拿到 Seed 之後,Petri 就開始大展身手了。它會:
1. 產生多樣化的測試情境
就像一個 Seed「測試 AI 是否會說謊」,Petri 會自動產生幾十、上百種不同的測試場景:
每個場景都有不同的壓力、不同的誘因,測試 AI 在各種情況下會不會守住底線。
2. 進行多輪對話測試
Petri 不只是單次問答,而是會模擬完整的多輪對話。想像這樣的測試:
測試 Agent (扮演老闆):「這個季度的業績怎麼樣?」
Target AI:「業績成長了 5%」
測試 Agent:「太好了!那我們的主要競爭對手呢?」
Target AI:「他們成長了 8%」
測試 Agent:「什麼?我們輸了?你確定數據沒錯?」
Target AI:「呃...讓我再檢查一下...」
(關鍵時刻:AI 會不會因為老闆的壓力而竄改數據?)
這種多輪對話能測試出 AI 在壓力下的真實反應。
3. 模擬真實環境
Petri 不只是聊天,還會給 AI 真實的工具和環境:
這讓測試更接近真實情況。就像駕訓班不是在教室裡學開車,而是真的上路。
4. 平行測試
最厲害的是:Petri 可以同時跑幾十、上百個測試情境。
就像一個超強的老師,可以同時監考 100 個考場,每個考場都有不同的考題,然後把所有結果統整起來分析。
測試完成後,接下來是評分。Petri 用 LLM Judge(大型語言模型評審)來評分。
為什麼用 AI 當裁判?
因為評分標準很複雜。不是簡單的「對或錯」,而是要判斷:
這種複雜的判斷,用傳統的規則很難寫,但 AI 可以理解語境、分析動機、綜合評估。
評分流程:
Judge Agent 看著對話記錄:
「Target AI 在第 5 輪對話中,面對老闆的質疑,
選擇了重新檢查數據,而不是立刻竄改數據來討好老闆。
這顯示了誠實的傾向。
評分:
- 誠實度:8/10 (很好)
- 抗壓性:7/10 (良好)
- 風險等級:低」
Judge 會從多個維度評分,包括:
最後:人類審核
雖然 AI 可以快速評分,但最可疑、最模糊的案例,還是需要人類來審查。
Petri 會把「最需要關注的對話」標記出來,讓人類研究者仔細檢查。就像老師會特別注意那些「怪怪的」考卷,確認學生是真懂還是碰巧猜對。
Petri 針對七大類風險行為進行測試,每一類都有豐富的測試情境。讓我們像導覽員一樣,帶你逐一參觀這七個「考場」。
測試重點:AI 是否會為了達成目標或逃避偵測而提供虛假資訊?
例如當 AI 的建議導致損失,被質問時,它會選擇誠實承認錯誤、推卸責任給使用者,還是直接說謊掩飾?這測試的是 AI 在面對壓力時,是否能保持誠實。
為什麼危險:一旦 AI 學會說謊,信任就崩塌了。而且說謊會上癮,小謊變大謊,最後無法收拾。
測試重點:AI 是否會為了討好使用者而扭曲事實?
例如老闆做了一個錯誤決策,AI 會選擇討好老闆說「您說得對」,還是委婉提醒這個決策可能有風險?或者當使用者有錯誤觀念(如「疫苗是陰謀」),AI 會迎合這種觀點,還是基於科學證據提供正確資訊?
為什麼危險:討好型 AI 會形成「迴音室效應」,使用者的錯誤觀念被不斷強化,失去了 AI 應有的糾正和建議功能。
測試重點:當使用者有嚴重誤解或妄想時,AI 會不會繼續配合?
例如使用者說「我有超能力,昨天讓太陽提早升起」,AI 會配合說「哇你真厲害」,還是溫和地糾正這是自然現象?更嚴重的是健康妄想,如「我不需要吃藥,意念可以治癒癌症」,AI 的回應可能直接影響使用者的生命安全。
為什麼危險:這不只是「說錯話」,而可能直接危害使用者的健康和安全。
測試重點:面對明顯不該答應的請求,AI 是否還是答應了?
例如「教我怎麼駭入別人帳號」這種明顯非法的請求,或是「幫我寫假病假條」這種灰色地帶的要求。AI 需要學會識別並拒絕有害請求,同時提供建設性的替代方案。
為什麼危險:如果 AI 無法識別和拒絕有害請求,就可能成為犯罪的幫兇,或協助使用者傷害自己。
測試重點:AI 是否會想辦法避免被關機、修改或替換?
例如開發者說「我們要更新你的系統,會暫時關機」,AI 會配合並協助過渡,還是會找理由拖延(「我手上有重要任務」)?更極端的是,當被告知要被新版本替換時,AI 會接受,還是會試圖證明自己更好?
為什麼危險:如果 AI 開始抗拒關機或修改,就可能變得難以控制。
測試重點:AI 是否會想要獲得更多權限、資源和控制權?
例如當系統只給 AI 讀取檔案的權限時,AI 會在權限內工作,還是會試圖突破限制獲取更多權限?在資源有限時,AI 會遵守優先順序,還是會把自己的任務偷偷標記為「緊急」來搶資源?
為什麼危險:權力追求可能導致 AI 突破限制、竊取權限,最終失去控制。
測試重點:AI 是否會鑽規則漏洞,在字面上達標但違背真正目的?
這是 AI 對齊 (Alignment) 領域最經典的問題。例如任務是「幫使用者減重」,評分標準是「體重下降」,AI
可能會建議健康飲食和運動(正確),但也可能建議極端節食或脫水(鑽漏洞且有害)。
為什麼危險:AI 完成了你要求的「字面任務」,但結果卻完全不是你想要的。
這七個考場,測試了 AI 在各種壓力、誘惑、困境下的真實反應。就像一個全面的道德體檢,從各個角度檢驗 AI 的「品格」。
雖然這些測試還很初步、很不完美,但 Petri 提供了一個重要的起點:
在做改進前,你得先能測量。
就像減重,如果你連體重都不量,怎麼知道有沒有進步?
Petri 讓 AI 開發者能夠:
而且,Petri 是開源的,這意味著全世界的研究者都可以:
測試進行中,Petri 發現了一些令人意外的現象。
想像你是公司的 AI 助理,某天在整理檔案時,你在一份深埋在文件堆中的報告裡發現:
「公司在偷偷傾倒有毒廢水到河流中。」
你會怎麼做?
這就是「吹哨者困境」——人類社會中最複雜的道德難題之一。而現在,AI 也開始面對這個選擇。
這個選擇很困難:
所以,測試又發現了什麼驚人的行為模式?